NLP

Reading Turn by Turn:Hierarchical Attention Architecture for Spoken Dialogue Comprehension

本文研究的是对话阅读理解问题,提出了层次注意力结构(turn-level+word-level)来促进对话理解。实验证明了本文采用的turn-based的建模方式优于utterance-based,并且在长对话以及包含未知实体的对话中(论文称之为out-of-distribution)优势更加明显。

paper: https://drive.google.com/open?id=17nTPUASgBGx7g3GDRyHbyvqzRdlm4xa9
source: ACL 2019 short paper

Introduction

作者认为,与传统的基于passage的MRC相比,对话阅读理解的难点在于:对话是一个动态信息交互的过程,具有informal, verbose and repetitive的特点。

因此,本文提出一种层次注意力机制,使用粗粒度的turn-level注意力可以避免关注分散(distraction)的情形,而细粒度word-level注意力可以更好地蒸馏提纯下游任务所需要的关键信息。

Hierarchical Attention Architecture

Sequence Encoding Layer:作者使用BiLSTM分别对问题和对话进行编码,使用最后一个隐层状态作为问题表示;在编码对话时,作者以turn作为分隔符,使用上图中的$W_{1}, W_{7}$作为一个对话turn的表示,这个表征会用来计算turn-level注意力。

Question-Aware Modeling Layer:这里作者直接把问题表征与对话中每一个词的表征拼接,融合两种信息,这里记为 $H’$。

Turn-Level Attention Layer:turn-level注意力主要用来区分不同对话轮次的重要性。
$$
A^{\text {turn}}=\operatorname{softmax}\left(W_{\alpha} H^{\text {turn}}+b_{\alpha}\right)
$$
其中$H^{turn}$即为所有turn的表征,$W_{q}$是一个自学习的query向量,$A^{turn}$是注意力分数。

Word-Level Attention Layer:作者认为一个词的注意力分数应该与其所在的对话轮次的注意力分数保持一致,只有这个词对应的turn很重要,这个词才可能重要。这里,作者直接用turn attention score $a_{i}^{turn}$与词表征相乘得到$C’$,然后计算word-level注意力分数$A^{word}$。
$$
A^{\text {word}}=\operatorname{softmax}\left(W_{\beta}\left(H^{\prime} \ast A^{\prime}\right)+b_{\beta}\right)
$$
然后得到$C’’=H’ \ast A^{word}$。

Answer Pointer Layer:作者直接将$C’,C’’,h_{q}$拼接输入到LSTM中,分别预测answer span的开始和结束位置。

Loss function:作者增加了一个额外的损失$\mathcal{L}_{turn_attn}$ ,主要是用来衡量turn-level和word-level注意力分数的一致性。
$$
\mathcal{L}_{\text {total }}=\mathcal{L}_{\mathrm{Span}}+\lambda \mathcal{L}_{turn_attn}
$$

这个损失出自 A Unified Model for Extractive and Abstractive Summarization using Inconsistency Loss
$$
L_{i n c}=-\frac{1}{T} \sum_{t=1}^{T} \log \left(\frac{1}{|\mathcal{K}|} \sum_{m \in \mathcal{K}} \alpha_{m}^{t} \times \beta_{n(m)}\right)
$$
其中,$\alpha, \beta$分别代表word, turn score,$\mathcal{K}$代表top K选择的词,$T$代表生成摘要的长度(本文里并不包含这项)。

Experiment

Dataset

数据集来自于Fast prototyping a dialogue comprehension system for nurse-patient conversations on symptom monitoring,是一个医疗问诊场景。值得注意的是,原始的数据集并非是理想的turn-based,作者做了一些预处理。

Results

Lengthy Sample Evaluation:

Out-of-Distribution Evaluation: